This is Data 143 Telegram Web

This is Data

Утро начинается не с ☕️, а с дайджеста!

Контекстные бандиты – это класс одношаговых алгоритмов обучения с подкреплением. Его задача – показывать пользователю наиболее подходящий контент исходя из его интересов. Для этого алгоритм динамически регулирует трафик, направляя показ того или иного варианта сегменту, в котором он работает лучше. Несмотря на возможности алгоритма, он не так широко известен в Data Science. Чтобы исправить это, автор блога на Medium (VPN) опубликовал пособие по контекстным бандитам. Он разбирает ситуации, когда применимы контекстные бандиты и чем они отличаются от A/В тестов и многоруких бандитов. Статья объясняет работу алгоритмов ε-greedy и UCB и показывает метод в деле.

Команда Yandex Cloud собрала в GitHub каталог типичных сценариев для построения аналитики в облаке. Data Platform Solution Library – это набор практических руководств, кода, документации и обучающих вебинаров. В библиотеке вы найдете описание того, как организовать гибридное хранение данных, как работать с Data Warehouse (DWH) и как переносить данные из Яндекс Директ или Метрики. В будущем библиотека пополнится рекомендациями по машинному обучению, real-time аналитике, репликации баз данных и не только.

Мне попались сразу две классные статьи с советами по построению графиков. Анастасия Кузнецова собрала 9 лучших практик создания столбчатых диаграмм (VPN). Например, она призывает не использовать 3D столбики и не скруглять их макушки. Это искажает пропорции и усложняет сравнение столбиков между собой. Вторая статья в блоге Datawrapper рассказывает про линейные диаграммы, а именно когда стоит приводить все данные в одном графике, а когда – представить их в виде отдельных панельных диаграмм. Приятный бонус – полезные источники в конце статьи.

#дайджест

2.4K views07:35

This is Data

Сегодня делюсь (чуть ли не единственной в своем роде) книгой от Amplitude, где ребята от А до Я рассказывают про фреймворк Полярной звезды или NSM. Все, кто хотел погрузиться в тему – самое время освоить рабочий фреймворк и найти свою Метрику Всевластия.

📚 The North Star Playbook. The guide to discovering your product’s North Star

Данная книга – полноценный гайд по освоению фреймворка NSM и внедрению его в проект. Она продолжает мой пост на тему NSM.

Нахождение NSM актуально для компаний, которые поставляют один продукт на рынок (если несколько, то для каждого продукта нужна своя NSM). В таком случае фреймворк поможет найти одну-единственную метрику и сфокусировать всю компанию на продукте и поиске ответа на вопрос: «Как продукт может удовлетворить потребности клиентов?».

Книга не большая, состоит из семи глав и чуть более 100 страниц. Первые две главы рассказывают о структуре фреймворка NSM и его целях, а также о том, какими характеристиками обладает NSM и с чем ее можно спутать. Третья глава посвящена проведению воркшопа по нахождению именно вашей NSM. Четвертая глава заостряет внимание на названии и определении NSM и входных метрик.

В пятой главе даются решения на типичные проблемы при освоении фреймворка. Шестая глава расскажет, как почувствовать, что метрика работает. В последней главе вы найдете советы, как совместить NSM с другими фреймворками.

Стоит упомянуть и о самой компании. Amplitude поставляет на рынок систему для продуктовой аналитики. Она позиционирует себя как более мощная альтернатива GA4. Основатели компании Спенсер Скейтс и Кертис Лю первоначально создали компанию Sonalight (а-ля Siri для устройств на Android), которая выпускала приложение для отправки текстовых сообщений голосом. Однако разработанное ими параллельно решение для диджитал-аналитики возымело больший успех, и основатели переключились на него, создав новую компанию Amplitude.

К сожалению, у книги нет перевода на русский язык.

🔗Электронная версия книги доступна бесплатно.
Онлайн версию ищите на сайте Amplitude.

#книга

2.5K views10:30

This is Data

Скучали по дайджесту? А он уже в ленте.

Дата-платформа – это набор интегрированных между собой инструментов, с помощью которых команды анализируют данные. На Medium (VPN) я нашел интересную статью о нюансах построения дата-платформы для аналитики и Data Science. Автор рассказывает, какие изменения произошли в индустрии за последние три года и дает рекомендации на будущее. Вот несколько инсайтов:
🔹Дата инженеры должны учитывать возрастающие объемы данных. Все больше компаний выходит на уровень масштабов данных, которые ранее были присущи только гигантам вроде Netflix.
🔹Data Streaming – единственный способ получать данные в темпе развития бизнеса.
🔹Модульная структура и оркестровка сервисов – два столпа при создании дата-платформы.

В эпоху генерации текстов и изображений люди стали мистифицировать профессию дата сайентиста. Им рисуется образ Нео и великой Матрицы. На деле ребята каждый день сталкиваются с рутинными задачами. А когда процесс становится механическим, нужно переходить к его автоматизации. Head of ML Laboratory Альфа-банка проанализировал проблему рутины в Data Science под разными углами и поделился решениями своей команды по борьбе с ней. Мне понравился тезис о том, что обратная сторона рутины – это экспертность. Рутина лишь означает, что вы научились решать сложную задачу. Важно не останавливаться на этом этапе, а переходить дальше – к ее автоматизации.

В прошлых дайджестах я приводил множество статей на тему, как построить стильные и информативные графики, и ни одну о том, как размещать заголовки, описания и другие текстовые элементы. Статья в блоге Datawrapper как раз дает много советов по работе с текстом при визуализации данных. Например,
✔️Размещай информацию рядом с объектом. Не заставляй читателя бродить в поисках описания.
✔️Повторяй единицы измерения на осях, тултипах и в аннотации.
✔️Не выравнивай абзацы по центру. Используй выравнивание по левому краю.
✔️Заменяй нули в больших числах на буквы К и М. Например, вместо 20 000 напиши 20к.

#дайджест

2.3K views07:12

This is Data

Иногда мне приходят сообщения от коллег маркетологов или ребят из продукта с просьбой помочь им настроить атрибуцию. И каждый раз я задаю им один важный вопрос: «~~Вам шашечки или ехать~~ Вам нужна одноканальная атрибуция или мультиканальная?»

Чаще всего ответ такой: «Нам нужна модель, которая присваивает всю ценность конверсии одному каналу». Почему? Потому что им важно знать, какой именно канал привел к первому контакту с пользователем, после которого он оставил свои данные. И это имеет большое значение, особенно в финтех проектах, где расчет с партнерами за трафик зависит от этих данных.

Чтобы не отвечать на вопрос по несколько раз, я подготовил простую, но эффективную инструкцию по настройке такой атрибуции.
Инструкцию можно передать аналитику как техническое задание для написания SQL-кода (+ шпаргалку по оконным функциям), и после реализации вам останется только добавить в ваши отчеты еще один показатель с рассчитанной атрибуцией ⬇️

#опыт

2.4K viewsedited 11:16

This is Data

Атрибуция на основе первого значимого касания 👈

▪️Атрибуция – это присвоение ценности конверсии различным событиям (точкам касания), происходящим на пути к этой конверсии.
▪️Конверсия – в случае финтех проекта – отправленная заявка на кредит.
▪️Модель атрибуции – это правило или набор правил, определяющих принцип распределения ценности между точками касания и источниками трафика.
▪️Точка касания – это любое взаимодействие клиента с продуктом, отраженное в базе данных (посещение, регистрация, расчет условий и отправка заявки).
▪️Цепочка взаимодействий – несколько точек касания, приведших к конверсии.
▪️Идентификатором клиента для поиска точки касания является по нисходящей:
- Сlient ID из системы трекинга;
- User ID из системы авторизации;
- e-mail;
- телефон.
Важно: Сlient ID и прочие куки можно не использовать, если вы решили присваивать ценность только тем касаниям, которые принесли реальные контактные данные пользователя.
▪️Окно атрибуции – настраиваемый параметр, в рамках которого происходит поиск точек касания клиента с продуктом, по умолчанию равен 30 дням.

Логика атрибуции 📐

Канал привлечения (cpc, cpa, organic, email и тд) успешно привел конверсию только в том случае, если выполняется ряд условий:

1️⃣ Берется вся историческая цепочка взаимодействий по идентификатору клиента;
2️⃣ Накладывается окно атрибуции (30 дней);
3️⃣ Ценность конверсии присваивается первой точке касания в рамках окна;
4️⃣ Если такой точки нет, то ценность конверсии присваивается последней точке касания в цепочке (Last Click).

Графически принцип работы представлен на слайде.

P.S. Нужно понимать, что одноканальная атрибуция является удобным инструментом для отслеживания эффективности одного маркетингового канала, но она имеет много минусов.
➖Такая атрибуция не дает полной картины пути клиента и, следовательно, может затруднить выявление ключевых паттернов в поведении.
➖ Это может привести к инвестициям в менее эффективные каналы, так как им отдается вся ценность конверсии, даже если другие каналы сыграли более значимую роль.

3.3K views11:17

This is Data

Пока мы все ждем весеннего тепла, можно скоротать время за чтением дайджеста.

Бизнес начал охоту на единорогов! На дата-единорогов 🦄✌🏻. Так называют «супер-аналитиков», которые чувствуют боль клиента и знают, как снять ее. Именно они правильно переводят потребности бизнеса в понятные требования к данным. Cтатья на Medium (VPN) рассказывает, как определить, кто из команды – единорог 😃. Часто он занимает должности дата-продактов, дата-аналитиков и инженеров по аналитике. С другой стороны, единорогами не рождаются, а становятся. Их главная суперспособность – жажда знаний. Дата-единороги изучают техническую сторону аналитики и бизнес-науку, при этом живя в мире клиента. На мой взгляд, каждому аналитику стоит развивать «единорожное» мышление.

Если в данные при подготовке отчета закралась ошибка или упало обновление датасета, кто должен это исправлять? Какая команда отвечает за конкретные данные? Автор блога на Medium (VPN) поделился опытом решения этих вопросов. Во-первых, владение можно указывать в коде или в интерфейсе. Оба типа имеют свои особенности. Во-вторых, при обращении с вопросами к владельцу данных нужно четко оговорить ваши ожидания от его работы и указать приоритет задачи. В-третьих, кого стоит уведомить о проблеме: команду, конкретного инженера или менеджера команды? Ответ ищи в статье.

На Бизнес-секретах я нашел статью о том, как планировать закупки и продажи товаров с помощью ABC- и XYZ-анализа. Автор на примерах разбирает, как применить оба инструмента в своем бизнесе. ABC-анализ показывает объем продаж за выбранный период, XYZ-анализ – стабильность продаж. Оба анализа можно использовать вместе, вычисляя самые выгодные категории товаров. К статьям прилагаются чек-листы (первый и второй), которые помогут определить неликвидный товар и перестать переплачивать.

#дайджест

2.9K views07:30

This is Data

Время перемен

У меня есть одно негласное правило: как только я замечаю, что работа меня не драйвит, а мысли только о зарплате и погашении ипотеки, значит, пришло время.

Работа не должна становиться рутиной, она должна быть страстью. Мы тут не для того, чтобы просто зарабатывать деньги. Нам нужны вызовы, исследования, обучение и рост. И когда этого нет, знаете что я делаю? Ищу перемен!

Если ты почувствовал, что тебе больше нечему научиться и ты уперся в потолок, то у тебя есть только два варианта.

Первый – внутренний переход. Попробуй сменить роль внутри своей же компании. Был продуктовым аналитиком? Стань начинающим продактом. Не бойся обсудить это со своим менеджером. Если ты ценный сотрудник, тебе помогут остаться в команде.

Вариант номер два – сменить работу. Но, пожалуйста, не гонись за баблом! Ищи место, где ты сможешь расти, учиться новому, а вокруг тебя будут крутые коллеги и атмосфера в которой ты сможешь себя проявить. Знаешь, что самое классное? Когда делаешь то, что любишь, деньги придут сами.

И последнее: никогда и ничего не бойся! Ведь только перемены делают нас сильнее.

#мысли

2.5K views09:51

This is Data

Я нашел интересное исследование метрики TTV (Time-to-Value). Автор опросил компании разного калибра, что они знают о метрике, как считают ее и как используют данные. Исследование полно инсайтов. Например, оказалось, что около 70% опрошенных никак не отслеживают TTV. Главная причина – компании не знают, как ее считать. Это не удивительно. Для расчетов команде нужно однозначно сформулировать ценность для клиента (value), которую порой сложно стандартизировать. С другой стороны, те, кто отслеживают метрику, понимают под TTV разные вещи, путая ее то с Activation, то с AHA moment. Сам же автор определяет ее так: TTV – это время от конца Acquisition до конца Activation, за которое пользователь становится лояльным клиентом.

А вы знали, что около 45% выручки от покупок в приложении (in-app purchase, IAP) измеряются неточно? Так утверждает автор статьи в блоге Appsflyer. Он выделяет 7 подводных камней при расчете IAP, например:
🔹мошеннические транзакции;
🔹дупликация данных;
🔹возвраты покупок;
🔹отложенные транзакции, которые не всегда заканчиваются оплатой покупки.
Многие из названных проблем характерны для любых проектов, в которых есть оплата. Статья подсвечивает темные места при расчете выручки и рассказывает, как проконтролировать их. Чем точнее вы измеряете IAP, тем лучше показатели ROMI и ROAS.

Интересный пример визуализации климатических данных от Яндекса. Команда изучила исторические данные сервиса Яндекс Погода и выяснила, какие климатические изменения произошли в России с середины прошлого века. Исследователи изучали погоду по регионам и отдельно – по городам-миллионникам. Результаты однозначны: в России тоже потепление. В целом температура в последнее десятилетие была на 2,2 °C выше, чем в 1950–1979.

#дайджест

2.3K views07:27

This is Data

Пару недель назад побывал на митапе от агентства АЭРО на тему «Иерархия метрик как основа data-driven подхода».

СРО Миша Зотов и DA-тимлид Егор Лысянский рассказали о своем опыте, подходах к внедрению метрик, из чего состоит основа иерархии и как взаимосвязаны натуральные и синтетические метрики.

Было интересно! Эта тема захватывает меня все больше и уже завтра ждите новый пост про #метрики.

2.3K views16:05

This is Data

После нахождения NSM самое время построить древо метрик.

Древо или иерархия метрик – это фреймворк для иерархии и классификации метрик, которые выстраиваются от ключевой метрики продукта (NSM).

Цель фреймворка:
🔹держать фокус на значимых метриках;
🔹определить слабые места;
🔹внедрять фичи, развивающие продукт в желаемом направлении.

Алгоритм построения:
1️⃣ Начинаем «с головы», то есть с нахождения NSM. Я рассказал один из способов выше, а также поделился полезной книгой.
2️⃣ Далее определяем 3-5 входных метрик или KPI, которые напрямую влияют на NSM: если KPI растут, то растет и NSM. Они образуют I уровень иерархии. Если вы нашли свою NSM, то скорей всего уже знаете KPI продукта.
3️⃣ Чтобы подобрать «дочерние» метрики II уровня, к каждому KPI задаем вопрос: Какие показатели влияют на значение метрики?
4️⃣ Этот же вопрос мы задаем к метрикам на уровне II и определяем метрики уровня III. В зависимости от сложности продукта продолжайте раскопки до уровня IV-V.

В итоге мы получаем перевернутое дерево, в котором вышележащие метрики ветвятся на определяющие их дочерние. Древо строится согласно концепции MindMap: каждая мысль на карте порождает новые идеи, логически вытекающие из нее.

Советы:
✔️Хорошее древо – это то, где вышележащая метрика зависит только от своих дочерних метрик. Важно учесть все дочерние показатели.
✔️Не стоит напрямую связывать дочерние метрики с несколькими родительскими – так вам будет сложно принимать решения. Лучше выделить одну значимую связь, а остальные обозначить пунктиром.
✔️Помним про характеристики хорошей метрики. Она всегда сравнима, понятна, измеряема, управляема и мотивирует улучшить себя.

Теперь опробуем фреймворк в действии. Откройте бэклог и соотнесите ваши идеи с метриками в иерархии. Для наглядности пишите идеи в комментариях к названию метрики, на которую повлияет новый функционал. Чем ближе к вершине лежит метрика, тем больше вероятность того, что фича выстрелит. Всегда фокусируемся на метриках, а не фичах.

#метрики

2.5K views10:10

This is Data

Блинов поели🥞, пора приступать к работе.

При визуализации данных мы должны помнить о ее главной цели – донести знание до аудитории. Это заставляет нас залезать в шкуру пользователя дашборда и задумываться о том, как он воспринимает графики. Восприятию могут помешать перегруз графиков ненужными деталями, неправильные акценты или их отсутствие, а также изображение голых данных без контекста. В блоге Towards Data Science на Medium (VPN) Мария Мансурова, Data&Product Analytics Lead, рассказала, как разглядеть дьявола в деталях и помочь аудитории увидеть главное.

На Хабре я нашел большой, крутой туториал, посвященный кластеризации в ML. Приключение на 34 минуты. Автор рассказывает все, о чем вы боялись ~~узнать~~ спросить. Статья разбирает принцип работы популярных алгоритмов кластеризации от простых к более продвинутым: K-Means, методы агломеративной и спектральной кластеризаций, DBSCAN и Affinity Propagation. Автор показывает их упрощённые реализации с нуля на Python и дает дополнительные источники в конце каждого раздела, чтобы вы могли забрести в самые дебри.

Aha moment – это тот момент, когда пользователь понимает, как продукт решает его проблему или удовлетворяет потребность. Это набор действий, после которых человек осознает ценность продукта. Он начинает пользоваться продуктом чаще, становясь лояльным клиентом. Мало кто задумывается об Aha moment при развитии продукта. И зря. Когда продакт знает Aha moment продукта и использует его, он влияет на метрики Activation и Retention. Автор блога на Medium (VPN) в деталях разбирает суть Aha moment и предлагает гайд, как определить его за 3 шага:

1️⃣ Разговор с пользователями (постоянными и ушедшими);
2️⃣ Сбор данных и поиск паттернов;
3️⃣ Выявление и тестирование возможного поведения.

#дайджест

2.1K views07:18

This is Data

Хочу поделиться с вами впечатлениями от посещения домашнего митапа по продуктовой аналитике, который не так давно прошел в новом офисе Tinkoff.

Сейчас, когда крупные конференции по аналитике на паузе, такие мероприятия – прекрасная возможность познакомиться с комьюнити, обменяться идеями и получить ценные знания.

На митапе ребята из Авито.Работа, рассказали как команда аналитиков использует аналитику для оценки актуальности объявлений, что напрямую влияет на выручку компании.

Также было интересно узнать, как ЦИАН применяет непересекающиеся эксперименты и псевдо-тесты для оценки событийных метрик.

Но особенное впечатление оставил рассказ о решении от Tinkoff, которое помогает аналитикам экономить время, а самой компании оставаться data-driven (всегда было интересно посмотреть, какие решения они применяют, особенно в условиях санкций).

Делюсь ссылкой на видео и презентации. Надеюсь, они окажутся для вас такими же полезными, как и для меня.

2.2K viewsedited 14:02

This is Data

Дополню пост о древе метрик книгой, которая научит вас находить KPI и строить иерархии.

📚 KPI Checklists: Develop Meaningful, Trusted KPIs and Reports Using Step-by-step Checklists
Автор: Bernie Smith

Берни Смит, владелец компании Made to Measure KPIs, изобрел метод KPI-деревьев в 2007 году. Автор ничего не говорит о NSM, зато учит правильно определять стратегическую миссию продукта. Именно она лежит на вершине иерархии. Это перекликается с фреймворком Полярной звезды: в нем мы формулировали цель продукта в виде емкой фразы, а затем искали метрику, которая измеряет движение к цели.

Книга наполнена краткими объяснениями и чек-листами. Главы расскажут, как сформулировать миссию продукта, понять его KPI и определяющие их метрики, как подготовить отчет и дэшборд, а также справиться со сложностями на каждом этапе.

Если хочется быстро понять суть метода, то вот краткий гайд по построению KPI-дерева на сайте Made to Measure KPIs.

🔗Купить книгу на английском можно на Амазоне. На русский язык книга не переводилась.

#книга

2.4K views12:32

This is Data

До сих пор пребываю в шоке после ужасного теракта. Сначала не хотел делать дайджест, но делать надо, ведь именно страха и апатии от нас и добиваются. В эти выходные общество показало небывалый пример единения, мы стали сильнее.
Вечная память погибшим🙏
——
Yandex Cloud расширяет возможности работы с данными. Во-первых, провайдер запустил Yandex MetaData Hub. Он объединяет функции управления метаданными для интеграции баз данных и подключения к ним. Во-вторых, в Yandex DataLens появятся два тарифа: Community для небольших проектов и некоммерческого использования и Business для корпоративного внедрения и бизнес задач. В-третьих, команда повысила общий уровень безопасности управляемых баз данных. Теперь пользователи смогут более детализировано отслеживать аудитные логи в Audit Trails.

Все обсуждают статью Сергея Тихомирова, ex Head of Product Яндекс Практикум, о сути экосистемы продуктов. Сергей объяснил, что лежит в основе нее и почему супераппы или платформы – еще не экосистема. Чтобы назвать набор продуктов экосистемой, должны быть соблюдены условия:
1. Продукты объединены платформой единого профиля пользователя;
2. Между продуктами существует передаточная ценность – эффект увеличения ценности от одного продукта экосистемы за счет передачи в него информации из другого (например, авторизационных данных VK ID).
Благодаря статье понимаешь, почему в современных реалиях разработка экосистемы на российском рынке – ключевая стратегия развития компаний.

Сегодня бизнес ищет способы максимизировать работу data команды и измерить рентабельность инвестиций в нее. Автор блога Towards Data Science на Medium (VPN) предложила полезный фреймворк – Пирамида окупаемости инвестиций в данные (Data ROI Pyramid). В основе расчета Data ROI лежат 3 показателя: инвестиции в данные, ценность дата продукта и время простоя данных. В статье даны формулы для расчета каждого из них. Фреймворк актуален руководителям команд аналитиков для отчетов CEO. Редко можно встретить алгоритм расчета Data ROI, а тут целый фреймворк.

#дайджест

2.2K views07:16

2024/06/05 09:34:27
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>